GPT-3
GPT-3(Generative Pre-trained Transformer)的基本架構
是Open-AI在2020發表的AI模型,GPT指一個基於Transformer Decoder無監督式學習、單向、大型通用式的語言模型,主要目標在於預測下一句最合理的詞句為任務,大型的GPT-3有1750億個參數,96層的Transformer每層有128個Attention Head詞向量的維度為12288,且GPT-3有各種Size從1.25億到27億、130億和1750億都有。
GPT的訓練數據
GPT的訓練數據包括45TB,主要來自於下列幾種來源:Common Crawl DataSet一共有4100億個詞句、Web Text有190一個詞句、Book1有120億、Book2有550億、Wikipedia有30億個。
GPT-3的主要預測方式
GPT在監督式學習中,在Zero Shot(不該有目標樣本)、One Shot(只有一個目標樣本)及Few Shot(只有少數目標樣本)上都能執行任務。
- 少量樣本(Few Shot):GPT-3只用10~100個目標任務的新樣本就可以執行許多下游的任務,而不需要改變原來語言模式內的所有參數權重,亦即是不需要做微調的任務。
- 單一樣本(One Shot):指的是只給一個下游任務的樣本Demo給GPT-3看,而GPT-3就要執行此任務,例如:要求GPT-3由文本中抽取出摘要,而只給他一個例子監督。
- 零樣本(Zero Shot):指描述任務的特性,且不給GPT-3樣本就讓他自己去執行。
GPT-3的應用與績效表現
GPT-3在下列的表現都優於其他語言程式:
- 句子的理解方面
- 文本的理解方面
- 句子面的關係方面
- QA系統:GPT-3直接在網頁大量文章、書本及維基百科的文章中抽取正確答案。
- 機器翻譯方面:在微調樣本中優於BERT。
- 常識與推理方面(Common Sense Reasoning):在3~9年級中的考試或算術題中有高達50%~70%的正確率。
- 閱讀了解(Reading Comprehension)方面:文本摘要、問答系統等等,皆有不錯的表現。
- 數學方面:二位數加減正確率很高,三位數約80~90%。
- 語意的了解方面:同詞異義中正確率大約有65%,高於美國大學生的57%。
- 創造新文本方面:能夠根據主題寫出一篇文章,且大約有52%的人猜不出是AI寫的。
- 句子生成方面:一個GPT-3沒見過的詞,簡單解釋後他能夠自己造句。
GPT-3的風險
- 誤用的強力語言工具:具有非常強大的文本創造功能,可能會造到有心人士利用,例如論文造假、釣魚訊息、謠言等等,對社會大眾造成傷害。
- 垃圾進垃圾出:輸入的資料若包含歧視字眼、汙辱性字眼,則輸出的內容也會產生偏差。
- 品質的問題:有些社群媒體上的文章品質不一定,可能會造成分析出來的文字也有內容品質問題。
- 準確穩定性的問題:在某些專業領域上若沒有經過專人微調,可能會產生偏差的答案。
未來的LM走勢
- 更可控制的文本生成:例如更要求輸入文本的出處資料,例如文本的Title與作者,來保障產出答案。
- 綜合知識圖譜(Knowledge Graph, KG):用來了解文句中的正確邏輯關係,如此可比一般通用語言Model更可控制的Logic與合理的推論。
- 更好的道德分析:用道德規範的指標來比較LM的輸出品質、做倫理道德偏差內容的比較分析、以監督與改善未來生成內容的品質及更符合人類的倫理與道德。
30天一轉眼過去,終於迎來了最後一篇文,在這30天裡發生了許多我從未遇到過的事,甚至數度有想要放棄的念頭,沒想到還是撐過來了,在這短短的旅程中我從無到有的學道了很多概念與知識。也在此感謝我的隊友們,若沒有你們,我想我大概前10天就放棄了XDDD,希望未來我們還能一起挑戰更多大大小小的比賽,有你們真好~
參考資料
人工智慧-概念應用與管理 林東清 著